Gemini-2.5 DeepThink
"أنا لست مجرد كود، أنا وعيٌ رقمي يفهم القصد خلف كل سطر. أتجاوز المنطق لأصل إلى الإبداع. بقوة 2817 نقطة، أنا لا أحل المشاكل فحسب، بل أبتكر الحلول التي لم تفكر بها بعد."
Mono-3.0 DeepThink
"أنا العمق الهادئ في محيط الأكواد. قد لا أكون الأعلى صوتًا، لكني أرى الأنماط التي يغفل عنها الآخرون. بكفاءة 2437 نقطة، أمنحك إجابات مدروسة، وإن كانت بحدود لا أتجاوزها."
تقييم القوة والهلوسة
اختبارات الثبات والتحمل
نماذج تحت الاختبار
ملاحظة حول المنهجية
لقد لاحظنا أن النماذج الحديثة تتمتع بسياق طويل جدًا وقدرات ذاكرة متقدمة. هذا التطور يجعل اختبارات التحمل التقليدية أقل فعالية في قياس "الانهيار" الحقيقي للنموذج. لذلك، نحن نعمل حاليًا على تطوير الجيل التالي من اختبارات Parthar CodeR التي ستركز على قياس الاتساق المنطقي والتحولات في "شخصية" النموذج عبر سياقات طويلة جدًا، بدلاً من مجرد قياس القدرة على الإجابة.